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0\ (57) Abstract: The invention relates to a method for analysing a digital audio flow comprising a stage in which part of a digital flow 
is compared to at least one specific signature of a digital audio format. The invention also relates to a device for receiving one such 
fS flow. 



(57) Abrege : L'invention propose un process d'analyse d'un flux audio numeYique qui comporte une Stape de comparaison d'une 
partie du flux numSrique a au moins une signature specifique d'un format audio numerique. L'invention propose £galement un 
dispositif de reception d'un tel flux. 
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Procede d'analyse d'un flux audio numerique et dispositif 
de reception d'un tel flux 



5 La presente invention concerne un procede d'analyse d'un flux 

audio numerique ainsi qu'un dispositif de reception d'un tel flux. 

Un flux audio numerique est un flux d' informations codees sous 
forme numerique (c'est-a-dire a la base sous forme de bits) et qui 
represented un signal audio, c'est-a-dire un signal destine a etre restitue 

10 comme signal sonore. 

Un tel flux audio numerique est par exemple regu par un decodeur 
numerique comme bande son d'un programme audio-video, par exemple 
une emission de television. De maniere classique, un tel flux audio 
numerique est code selon une seule norme predeterminee, par exemple 

15 MPEG2, connue du decodeur numerique (en general d'ailleurs parce que le 
decodeur numerique est fourni par Temetteur de la source audio-video 
numerique qui a encode le flux). 

Plus recemment, d'autres normes (ou formats) de codage audio 
numerique se sont d£veloppees, comme par exemple AC-3 et WAVE. Le 

20 format sous lequel est cod6e I' information audio numerique (c'est-a-dire le 
format du fichier audio pour la micro-informatique) est disponible sous forme 
d'un indicateur, comme I' extension du fichier pour la micro-informatique. 
Ainsi, V unite centrale d'un micro-ordinateur a acces au format utilise en lisant 
Textension du fichier audio, par exemple '.wav' pour le format WAVE. De 

25 maniere similaire, une information relative au format audio utilise est 
disponible lors de la transmission de donnees par une interface numerique 
du type IEC 61937, selon laquelle les donnees audio sont encapsulees avec 
ajout de T information relative au format. 

L'inventeur a realist qu'un probteme se pose au contraire lorsque 

30 Ton desire transmettre des donnees audio num6riques de format de codage 
variable, qui peuvent done etre del donnees brutes, dans un flux numerique. 
Ceci est bien sQr souhaitable dans un environnement multimedia evolue. Du 
cote du recepteur (oO doit avoir lieu le decodage) - par exemple un decodeur 
numerique, le probleme se pose de la sorte : il s'agit d'etre capable de 

35 decoder des donnees d'un flux audio numerique quand aucune information 
sur le format n'est disponible dans le flux numerique. 
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Pour remedier a ce probleme, I'inventeur propose un procede 
d'analyse d'un flux audio numerique qui comporte une etape de comparaison 
d'une partie du flux numerique a au moins une signature specifique d'un 
format audio numerique. 
5 Selon d'autres caracteristiques avantageuses, 

- le proced§ comporte I'Stape supplementaire suivante lorsque 
ladite comparaison est negative : comparaison d'une seconde partie du flux 
numerique a une seconde signature specifique d'un second format audio 
numerique ; 

io - ladite etape de comparaison est repetee de maniere regulfere 

afin de detecter un changement dynamique du format ; 

- le flux audio numerique fait partie d'un flux audio-vid6o vegu d'un 

diffuseur ; 

- ladite partie du flux numerique fait partie de donnees audio 

15 brutes. 

II est 6galement propose un dispositif de reception d'un flux audio 
numerique qui comporte des moyens de comparaison d'une partie du flux 
numerique a au moins une signature specifique d'un format audio 
numSrique. 

20 Selon des caracteristiques avantageuses, 

- les moyens de comparaison ont acces a une pluralite de 
signatures pour comparaison avec des parties respectives du flux 
num6rique ; 

- des moyens de commande permettent la mise en oeuvre 
25 reguliere des moyens de comparaison ; 

- un decodeur audio est configure en fonction d'une information 
de format fournie par les moyens de comparaison ; 

- le dispositif comprend des moyens de reception d'un flux audio- 
vid6o continu. 

30 La description qui suit sera faite en reference aux dessins 

annexes dans lesquels : 

- la figure 1 reprSsente un en-tete d'une trame audio au format 
MPEG ES ; 

- la figure 2 represente un en-tete d'un paquet PES d'un flux 
35 MPEG PES ; 

- la figure 3 represente la structure d'une trame audio au format 

AC-3; 
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- la figure 4 represents la structure d'un flux audio au format 

WAVE; 

- la figure 5 represente I'organigramme de la detection 
automatique de format. 

5 On decrit dans la suite un exemple de methode, mise en ceuvre 

par exemple sous forme logicielle, permettant de detecter automatiquement 
le format d'un flux audio num6rique diffuse (sous forme d'un flux de donnees 
continu, ou de paquets de donnSes qui se suivent dans le temps), et d'en 
extraire tous les parametres (frequence d'echantillonnage, debit, nombre de 
10 canaux, type, canaux selectionnes, mode prologic, nombre de voies avant, 
arridre...) permettant de configurer automatiquement un decodeur audio 
multi-format afin de jouer le flux en question. L exemple est decrit ci-dessous 
pour les formats audio suivants : 

MPEG 1 et 2 (layer I, II, III) Elementary Stream (ES) 
15 MPEG 1 et 2 (layer I, II, III) Packetized Elementary Stream (PES) 

AC-3 Elementary Stream (ES) 
AC-3 Packetized Elementary Stream (PES) 
WAVE 

mais peut etre facilement 6tendu a d'autres formats audio 

20 num6riques. 

La detection automatique de format audio num6rique decrite dans 
ce document est une technique qui peut intervenir dans un cadre applicatif 
assez large, puisque cette methode peut etre mise en ceuvre et adaptee a 
tous type de diffusion de donnees, quel que soit le medium de transport 

25 utilise (diffusion par satellite, cable et hertzien terrestre, transmission par 
paquets sur reseaux informatiques, flux de donnees - steaming - sur le 
reseau Internet, etc.). La raison est que cette methode fonctionne sur un 
train binaire de donnees (suite de 0 et de 1) quelconque. 
Le contexte d' utilisation est le suivant : 

30 Un emetteur (centre de diffusion numerique, serveur, etc) 

transmet ou diffuse un flux binaire de donnees audio dans un format donne, 
inconnu du (des) r§cepteur(s). Chaque recepteur est equipe d f un systeme de 
decodage de flux audio (materiel ou logiciel) multi-format et configurable. Le 
recepteur regoit les donnees, doit d6tecter automatiquement le format du flux 

35 audio parmi une liste de formats supportes, et extraire les parametres de 
d6codage pour configurer le decodeur audio, afin que celui ci puisse jouer le 
flux audio en question. 
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Le decodeur doit egalement etre capable de detecter un 
changement dynamique de format audio intervenant au cours de la diffusion. 
Par exemple, un flux audio MPEG ES est diffuse. Le recepteur regoit les 
donnees, les analyse, detecte que le format du flux est du MPEG ES, 
5 configure le decodeur et commence a jouer le flux MPEG. En cours de route, 
un changement de format intervient et un flux AC3 est diffuse alors que le 
recepteur est toujours en train de decoder le flux MPEG. Sur reception des 
premieres donnees AC3, le recepteur detecte la discontinuity de format et 
effectue le traitement approprie (il peut signaler I'erreur, ignorer les donnees 

10 AC3, se reconfigurer pour jouer le nouveau flux AC3, etc.) 

Afin de mettre en ceuvre la methode de detection de format, on 
propose que le recepteur connaisse a priori (c'est-a-dire avant toute 
reception) la syntaxe du train binaire de donnees (bitstream) d'un certain 
nombre de formats audio, et dispose done au depart d' une liste de formats 

15 qu'il sait identifier. Dans I' exemple, la liste des formats supportes est la 
suivante : 

MPEG 1 et 2 (layer I, II, III) Elementary Stream (ES) 
MPEG 1 et 2 (layer I, II, III) Packetized Elementary Stream (PES) 
AC-3 Elementary Stream (ES) 
20 AC-3 Packetized Elementary Stream (PES) 

WAVE 

Le probleme de la detection revient done a selectionner parmi les 
formats connus du recepteur (cf. liste ci-dessus) celui qui correspond aux 
donnees recues. Si les donnees recues ne suivent pas la syntaxe des 

25 formats de cette liste, la detection est impossible. 

La methode de detection a proprement parler repose sur le 
principe suivant : 

Pour chacun des formats supportes par le recepteur (cf. liste ci- 
dessus), on definit une signature caracteristique du format. Cette signature, 

30 extraite de la syntaxe du train binaire de chaque format audio, permet de 
I' identifier de maniere unique et certaine. Une fois ces signatures definies, 
ralgorithme de detection consiste a analyser le train binaire de donnees recu 
pour y rechercher iterativement chaque signature dans un ordre donne : on 
commence par rechercher la signature du format MPEG ES, si on echoue, 

35 on recherche la signature du format suivant et ainsi de suite jusqu'a avoir 
epuise tous les formats de la liste. La detection reussit si une signature a ete 
trouvee. Elle echoue si aucune signature n'a ete trouvee une fois parcourue 
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la liste de tous les formats connus du recepteur. Auquel cas, on sait avec 
certitude que le flux re?u n'appartient a aucun des formats connus (mais on 
ignore quel est son format). 

On definit dans la suite pour chaque format une signature 

5 possible. 

Format MPEG ES : 

Une trame audio d'un flux el6mentaire (ES) MPEG commence par 
un en-tete de 32 bits se composant des champs represents en figure 1 . 

Le motif de synchronisation (Syncword) est code sur 12 bits et la 
10 norme fixe sa valeur a OxFFF (en hexadecimal), la norme garantit que ce 
motif n'apparait que dans I'en-tete et nulle part ailleurs. 

Par ailleurs un en-tete MPEG est invalide si au moins un des 
champs suivants prend une valeur reservee par la norme : 

Layer = 00 
15 Bitrate index =1111 

Sampling frequency = 1 1 

Emphasis = 10 

La signature d'un flux MPEG ES peut done etre d6finie par la 
condition suivante : 

20 Si dans le train binaire de donnees regu, on trouve un mot de 4 

octets commengant par OxFFF et dont les bits : 
- 14 et 15 (Layer) different de '00' 

- 17 a 22 (Bitrate index et Sampling frequency) different de 

111111' 

25 - 31 et 32 (Emphasis) different de ' 1 0' 

alors le flux est au format MPEG ES. 

En d'autres termes, la signature d'un flux MPEG ES equivaut a la 
detection dans le train binaire d'un en-tete MPEG valide 
Format MPEG PES 

30 La couche PES de la norme MPEG est une couche systeme 

servant au transport des donnees audio-video. C'est une sur-couche de la 
couche ES (Elementary Stream). Un paquet PES commence par un en-tete 
PES contenant les champs indiques en figure 2. 

La norme fixe la valeur du Packet Start Code Prefix & 0x000001 et 

35 garantit que ce code ne peut pas §tre rencontr6 ailleurs dans le flux que 
dans le PES Header. Ce code indique le debut d'un paquet PES. 
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Le champs Stream Id, code sur 1 octet, sert a identifier le type de 
flux elementaire (ES) contenu dans le paquet PES. Une valeur de Stream Jd 
egale a 'HOxxxxx' oil x peut valoir indifferemment 0 ou 1 identifie un flux 
elementaire audio MPEG 1 ou 2. Done toute valeur de Streamjd comprise 
5 entre OxCO et OxDF (inclus) identifie un flux MPEG audio. 

Le champ PES Header Length permet de determiner la longueur 
de I'entete PES, et done de determiner £ quel endroit se trouve le debut de 
la Payload du paquet PES. La Payload d'un paquet PES audio contient les 
donnees du flux elementaire et commence done par un en-tete. 
io Par consequent, si dans le train binaire de donnees, on trouve 3 

octets consecutifs prenant la valeur hexadecimale 0x000001 suivis de 3 bits 
prenant la valeur binaire '110', alors le flux est un flux MPEG PES audio. 
Par mesure de precaution, on rajoute a cette signature celle d'un flux MPEG 
ES, Le. on verifie que la premiere trame audio contenue dans le paquet PES 
15 commence par une entete MPEG valide. On definit ainsi la signature du 
format audio MPEG PES : 

Si dans le train binaire de donnees repu, la sequence binaire 
'000000000000000000000001110' est trouvee et que la Payload du paquet 
PES courant debute par un en-t£te MPEG valide (cf. ci-dessus), alors le flux 
20 est au format MPEG PES. 

Flux AC3 ES : 

La structure d'une trame audio AC3 figure sur le schema de la 

figure 3. 

Le flux AC-3 est constitue de fenetres de synchronisation 
25 successives dans lesquelles chaque partie represente des informations 
importantes pour la decompression et la recuperation des donnees. 

Bloc SI : represente les informations sur la synchronisation. 
Bloc BSI : renferme les informations sur le type de codage et sur 
la structure des donnees. 
30 Bloc AB n : chaque bloc renferme les donnees audio des 

differentes voies. Chaque bloc est constitue de 256 echantillons sonores. 

Bloc Aux : cette partie peut contenir des informations 
suppiementaires sur les blocs precedents ; ces informations sont utilisees en 
cas de besoin de donnee de secours. 
35 Bloc CRC : le controle d'erreur permet de verifier que les 

informations ne sont pas erronees. 
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Un code CRC se trouve aussi dans la trame SI afin de reduire le 
nombre de fausses trames de synchronisations. 

SI contient un mot de 40 bits de synchronisation permettant 
d'indiquer le debut de la trame AC3. Ce mot est au debut de chaque trame. 
5 Ces 40 bits se decoupent en 4 variables : Syncword, Crd, Fscod et 
Frmsizecod. 

Syncword (16 bits) - mot de synchronisation - est toujours 0x0B7 
c'est-a-dire '0000 1011 0111 0111 \ L'ordre des bits dans le flux est bit de 
gauche en premier. 

io Crc1 (16 bits) : code de contrSle d'erreur sert pour les 5/8 de la 

trame. Le bit de poids fort en premier lors de la transmission. 

Fscod (2 bits) : cette variable indique la frequence de I'echantillon. 
Le code 1 1 r est reserve par la norme AC3. 

Frmsizecod (6 bits) : ce mot permet de determiner le nombre de 
15 mot de 1 6 bits pr6c6dant la prochaine trame 

BSI contient les informations sur le type de donnees transportees 
dans le flux. Ce n'est qu'& partir de ces donnees qu'il est possible de 
reconstituer les 6chantilIons d'origines. Des informations moins importantes 
sont aussi transportees, comme la langue, I'heure, le type de service 
20 (dialogue, commentaire, musique, etc.). 

Bsid - Authentification du flux (5 bits) : dans la version courante 
du codage Dolby Digital, la valeur de Bsid est '01000' (= 8). 

Bsmod - Type de donnees (3 bits) : ces 3 bits associes a Acmod 
permettent d'indiquer le type de service transports dans le flux. 
25 Acmod - Mode du codage audio (3 bits) : ce code permet de 

determiner le nombre de voix utilisees. II est possible d' encoder jusqu'a 6 
voies. Les six canaux disponibles sont les suivants : voie centrale C, voie 
avant gauche L, voie avant droite R, voie arriere gauche SL, voie arriere 
droite SR, caisson LFE. 
30 Le caisson n'est pas compte dans le nombre de voies mais est 

active part la mise a 1 de la variable Ifeon. 

Cmixlev - Niveau sonore de la voie centrale (2 bits) : ces deux 
bits permettent d'indiquer I" attenuation a realiser sur la voie centrale. 

Surmixlev - Niveau sonore des voies arriere (2 bits) : ces deux 
35 bits permettent d'indiquer P attenuation k realiser sur les voies arrfere. 
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Dsurmod - Mode Dolby surround (2 bits) : ces deux bits indiquent 
la presence d'un mode Dolby surround encode dans les voies gauche et 
droite. 

Lfeon - Canal de basse frequence (1 bit) : Ce bit est a 1 lorsque 
5 le canal specifique au caisson de basse est present dans le flux. 

Le format AC3 ES est identifie par son mot de synchronisation de 
16 bits qui vaut toujours OxOB77 en hexadecimal. Si ce motif est repere dans 
le train binaire regu et si les informations du bloc SI et BSI qui suivent (le 
Syncword marque le debut du bloc SI.) sont valides, i.e. qu'aucun champ ne 
10 prend la valeur reservee par la norme, alors le flux audio regu est au format 
AC3 ES. La signature du format AC3 ES se definit done de la maniere 
suivante: 

Syncword '0x0B77' trouve dans le flux + bloc SI et BSI valides. 
Par ailleurs, le decodage des blocs SI et BSI permet d'extraire les 
15 parametres de decodage pour configurer le decodeur audio. 
Format AC3 PES: 

Un flux AC3 PES commence par un code Startcode 0x000001 et 
a une valeur de Streamid fixe a OxBD (private_stream_1 dans la norme 
MPEG) par la norme ATSC. A cette condition, on ajoute pour plus de surete 
20 la signature d'un flux AC3 ES, i.e. on s' assure que la Payload du paquet 
PES debute par le Syncword 0x0B77 et que les blocs SI et BSI sont valides. 

Si dans le train binaire de donnSes on trouve un mot de 4 octets 
(Startcode et Streamid) prenant la valeur hexadecimale 0x000001 BD, et que 
la Payload du paquet PES courant debute par le Syncword 0x0B77 et que 
25 les informations suivantes correspondent a des champs valides des blocs SI 
et BSI, alors le flux audio regu est au format AC3 PES. 

Format WAVE 

Un flux audio au format WAVE a la structure representee en figure 

4. 

30 Un fichier WAVE est caracterise par la valeur des champs 

suivants : 

ChunkID = RIFF (0x52494646 en hexadecimal) 
Format = WAVE (0x57415645 en hexadecimal) 
SubchunkllD = "fmt_" (0x666d7420 en hexadecimal) 
35 AudioFormat = 1 

Subchunk2ID = data (0x64617461 en hexadecimal) 
Ces valeurs constituent la signature d'un fichier WAVE. 
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Par consequent, si dans le train binaire donne on trouve 
successivement : 

le mot 0x52494646 a une adresse notee ADR 
le mot 0x57415645 a I' adresse ADR+8octets 
5 le mot 0x666d7420 a I'adresse ADR+12octets 

le demi-mot 0x0001 & |" adresse ADR+20 octets 
le mot 0x666d7420 & r adresse ADR+36 octets 
alors le flux audio est au format WAVE. 

Une fois definies les signatures de chaque format audio, la 
10 detection automatique se resume £t une simple recherche de signatures dans 
un train binaire de donnees. Cette recherche s'effectue suivant 
rorganigramme represents en figure 5. 



WO 02/097603 



10 



PCT/FR02/01827 



REVENDICATIONS 



1. Procede d'analyse d ! un flux audio numerique qui comporte une 
5 etape de comparaison d ! une partie du flux numerique a au moins une 

signature specifique d'un format audio numerique. 

2. Procede selon la revendication 1 qui comporte r etape 
supplemental suivante lorsque ladite comparaison est negative : 

io - comparaison d'une seconde partie du flux numerique a une 

seconde signature specifique d'un second format audio numerique. 

3. Procede selon la revendication 1 ou 2, dans lequel ladite etape 
de comparaison est r£petee de maniere regultere afin de detecter un 

15 changement dynamique du format. 

4. Procede selon Tune des revendications 13 3, dans lequel le 
flux audio numerique fait partie d'un flux audio-vid6o re9u d'un diffuseur. 

20 5. Procede selon Tune des revendications 1 a 4, dans lequel ladite 

partie du flux numerique fait partie de donn6es audio brutes. 

6. Dispositif de reception d'un flux audio numerique caracterise en 
ce qu'il comporte des moyens de comparaison d ! une partie du flux 

25 numerique a au moins une signature specifique d'un format audio 
numerique. 

7. Dispositif selon la revendication 6, dans lequel les moyens de 
comparaison ont acces & une plurality de signatures pour comparaison avec 

30 des parties respectives du flux numerique. 



8. Dispositif selon la revendication 6 ou 7, dans lequel des 
moyens de commande permettent la mise en ceuvre regultere des moyens 
de comparaison. 
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9. Dispositif selon Tune des revendications 6 a 8, dans lequel un 
decodeur audio est configure en fonction d'une information de format fournie 
par les moyens de comparaison. 

5 10. Dispositif selon Tune des revendications 6 a 9, qui comprend 

des moyens de reception d'un flux audio-video continu. 
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The Canonical WAVE file format 
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The "RIFF" chunk descriptor 

The Format of concern here is 
"WAVE", which requires two 
sub-chunks: "font n and "data" 



The "fmt M sub-chunk 

describes the format of 
the sound information In 
the data sub-chunk 



The "data" sub-chunk 

Indicates the size of the 
sound information and 
contains the raw sound 
data 



Fig. 4 
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